社科实验室 | AI 科研助手的三种典型模式
随着ChatGPT的火热,生成式AI的发展也在加速。越来越多的研发人员开始关注这个领域,并尝试提出各种新的想法和创新性的解决方案。
在社会科学领域中,AI 的应用尚不普及,作为一种新的辅助工具,AI 科研助手可以帮助社科学者和团队更加高效地开展研究工作。
基于 ChatGPT(LLMs)的 AI 助手:
提示词和流程设计是关键
到目前为止,ChatGPT(gpt-3.5-turbo,gpt-4)在大语言模型中占据优势地位,它提供 api 接口,方便集成,并且价格较为优惠(相对于自己训练模型而言)。大语言模型 PK 对比见:https://lightning.ai/pages/community/community-discussions/the-ultimate-battle-of-language-models-lit-llama-vs-gpt3.5-vs-bloom-vs/ 。
提示词(prompt)对于大模型来说非常重要,它可以帮助模型更好地理解用户想要什么,并更准确地回答问题。Awesome ChatGPT Prompts 项目广泛收集了 ChatGPT 模型提示词案例,项目地址:https://github.com/f/awesome-chatgpt-prompts,配套的电子书见《The Art of ChatGPT Prompting: A Guide to Crafting Clear and Effective Prompts》(https://fka.gumroad.com/l/art-of-chatgpt-prompting)。
以下是取自项目中的几个提示词:
让我们看一下优化提示词的效果:
除了设置合理的提示词,要将 ChatGPT 或者同类大语言模型调试成 AI 科研助手,还需要设计符合科研工作流程的合理交互。类似的项目有:
1. ChatPaper,可以根据用户输入的关键词,自动在arxiv上下载最新的论文,再利用ChatGPT3.5的API接口强大的总结能力,将论文总结为固定的格式,以最少的文本,最低的阅读门槛,为大家提供最大信息量,以决定该精读哪些文章。项目地址:https://github.com/kaixindelele/ChatPaper
2. ChatReviewer,是一款基于ChatGPT-3.5的API开发的智能论文分析与建议助手,可以对论文的优缺点进行快速总结和分析,提高科研人员的文献阅读和理解的效率,紧跟研究前沿,也可以根据 ChatReviewer 生成的改进建议进行查漏补缺,进一步提高自己的论文质量。项目地址:https://huggingface.co/spaces/ShiwenNi/ChatReviewer
3. ChatImprovement,利用 ChatGPT 对论文初稿进行润色、翻译等。项目地址:https://huggingface.co/spaces/qingxu98/gpt-academic
4. ChatResponse,利用 ChatGPT 对审稿人的提问进行回复。项目地址:https://huggingface.co/spaces/ShiwenNi/ChatResponse
5. ChatGenTitle,利用百万 arXiv 论文元信息训练出来的论文题目生成模型,根据论文摘要生成合适题目。项目地址:https://drive.google.com/file/d/1akrC4-YnYdiyD1_VK-92hncN7HS0FLf5/view?usp=sharing
"自研" AI 科研助手:微调大语言模型
LLMs 通常使用海量的数据来训练,需要花费巨大的人力和算力,在社科领域,无论是学者个人还是科研团队,从头训练自己的大型语言模型几乎是不切实际的。在人工智能时代,科研团队可以基于已有的模型,针对所关注的研究领域进行微调训练,以提高自身的科研效率。
在预训练后,大模型可以获得解决各种任务的通用能力,并且大语言模型的能力可以根据特定目标进一步调整。这就是微调技术,目前主要有两种微调大模型的方法:(1)指令微调,目标是增强(或解锁)大语言模型的能力。(2)对齐微调,目标是将大语言模型的行为与人类的价值观或偏好对齐。
有一些项目(demo)已经成功地利用微调大型语言模型的技术,在特定领域实现了良好的效果。
1. 彭博 BloombergGPT,金融领域的大语言模型。《BloombergGPT: A Large Language Model for Finance》,论文地址:https://arxiv.org/abs/2303.17564。BloombergGPT是Bloomberg训练出来的金融大语言模型(LLM for Finance,模型参数量为500亿,使用了包含3630亿token的金融领域数据集以及3450亿token的通用数据集。在金融领域任务上,BloombergGPT综合表现最好;在通用任务上,BloombergGPT的综合得分同样优于相同参数量级的其他模型,并且在某些任务上的得分要高于参数量更大的模型。
2. Stanford Alpaca: An Instruction-following LLaMA Model,项目地址:https://github.com/tatsu-lab/stanford_alpaca。Stanford Alpaca 使用 52K 个 intruction-following examples 来微调 Meta 的大语言模型 LLaMA 7B (Meta 开放了模型权重以及 Inference 代码,详见 https://github.com/facebookresearch/llama),从而生成了 Alpaca 7B。并且,这 52K 个 intruction-following examples 由 OpenAI 的 text-davinci-003 模型生成(the answer to the instruction as generated by text-davinci-003 ),即,将 OpenAI 性能完备的模型作为 Teacher,来指导参数更少的 Alpaca 模型进行训练,大幅降低了训练成本 ,其中调用 OpenAI API 的成本不到 500 美刀,另外微调 7B 参数的 LLaMA 模型,使用云服务商提供的 8 块 80GB A100 显卡,训练 3 小时,消费不到 100 美刀。因此整体成本是小于 600 美刀。
3. 华佗:基于中文医学知识的LLaMa指令微调模型(BenTsao (original name: HuaTuo): Tuning LLaMA Model With Chinese Medical Instructions),项目地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese。项目使用医学知识图谱和 GPT3.5 API 构建的中文医学指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了LLaMA 在医疗领域的问答效果。
4. ColossalChat,基于 LLaMA 模型和广泛使用的 AI 框架 PyTorch,是第一个包含完整的 RLHF 类 ChatGPT 模型复制过程的实用开源项目,是最接近 ChatGPT 原有技术路线的项目!只需要不到100亿个参数,就可以在大型语言模型的基础上通过RLHF微调达到中英文双语水平,达到与ChatGPT和GPT-3.5相当的效果,并可以进行Demo测试。项目地址:https://github.com/hpcaitech/ColossalAI。
其他商业 AI 接口:完成聚焦任务
虽然大型AI模型具有强大的通用能力,但一些聚焦于某个功能点的工作可以使用现有的商业AI接口轻松完成。下面介绍几个国内的 ai 平台及其功能:
1. 讯飞开放平台(https://www.xfyun.cn/),以语音交互为核心的人工智能开放平台。可提供实时语音听写、离线语音听写、长语音识别、录音文件转写、实时语音合成、长文本语音合成等功能。这些功能可以提高科研人员日常开会和整理材料效率,若再配合上大语言模型,则可以轻松完成概括会议内容,梳理会议流程、发布会议新闻等工作。
2. 百度飞桨模型库(https://aistudio.baidu.com/aistudio/modelsoverview),支持图像分类、目标检测、图像分割、文字识别、预训练模型等功能,可以帮助科研人员进行数据清洗工作,如某些公司社会责任报告或者财务报告的纸质扫描版本可以用文字识别转为可编辑文本,再进行信息的提取和加工。
3. 阿里云 OpenAPI(https://next.api.aliyun.com/home),支持图像生产、图像识别、目标检测、商品理解、文字识别、内容安全、分割抠图、人脸人体、视觉搜索、视频理解、视频分割、视频生产等功能。
总结
若使用商业级大型语言模型,则必须注意提示词的设计,并开发符合科研流程工作的系统开发,以确保系统的有效性和针对性;若对大语言模型进行微调处理,则使用时首先需要遵守项目的使用协议,此外要注重数据质量和微调策略;若要满足科研日常工作,则可以接入成熟的商业接口,提高日常工作效率。以上三个部分相互补充,才能构建出一个功能丰富、场景完善的 AI 科研助手工具包!
企研社科实验室团队,致力为高校及研究机构的社科实验室建设提供一站式解决方案!我们可以提供社科实验室方案设计、软硬件设备部署、配套数据库建设、实验室管理方案设计、数据可视化平台开发、自定义科研AI助手开发等一站式服务,满足贵实验室教学、科研和社会服务等全方位的数字化需求。
·END·
星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!
往期推荐